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摘 要 : 针对 现 有 服装 兼容 性 模型 都 集中 探究 成 对 单 品 之 间 的 兼容 性 这 一 问题 ， 提 出 一 种 基于 超 图 表示 的 服装 兼容 
性 预测 模型 。 该 模型 首先 基于 现 有 数据 集中 时 尚 服装 的 不 同类 别 和 时 尚 服装 间 的 搭配 关系 构建 了 一 个 服装 超 图 ， 其 
中 每 个 节点 表示 一 件 衣服 ， 每 条 超 边 表示 多 件 衣服 组 成 的 套装 。 为 了 更 好 地 从 超 图 中 推断 服装 的 兼容 性 ， 该 模型 将 
超 图 转换 为 传统 图 ， 并 利用 图 神经 网 络 模拟 节点 之 间 的 复杂 交互 。 最 后 引入 注意 力 机 制 计算 服装 的 兼容 性 得 分 ， 增 
强 模型 的 预测 能 力 。 实 验 结果 表明 ,在 服装 填空 任务 和 服装 兼容 性 预测 两 个 服装 搭配 任务 上 ,该 模型 分 别 达到 了 77.29% 
和 96.239% 的 准确 率 ， 较 其 他 基线 模型 有 显著 的 提升 。 

关键 词 : 服装 兼容 性 ; 超 图 表示 ; 图 神经 网 络 ; 注意 力 机 制 
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Outfit compatibility prediction model based on hypergraph representation 
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Abstract: In order to solve the problem of the existing research work focuses on the compatibility of paired items, this paper 


proposed an outfit compatibility prediction model based on hypergraph representation. The model constructs a fashion 
hypergraph based on the category information of fashion items and the collocation relationship between different fashion 
items in the existing dataset, where each hypernode represents an item, and each hyperedge represents an outfit made up of 
multiple items. To better infer outfit compatibility from the hypergraph, the model converts hypergraphs into traditional graphs, 
and the graph neural network is used to simulate the complex interaction between nodes. Finally, the attention mechanism is 
introduced to calculate the outfit compatibility score to strengthen the predictive ability of the model. Experimental results 
show that in the outfit fill-in-the-blank task and the outfit compatibility prediction task, the model achieved an accuracy rate 
of 77.29% and 96.23% respectively, which was significantly improved compared with other baseline models. 

Key words: outfit compatibility; hypergraph representation; graph neural network; attention mechanism 


£ 0 引言 一 个 图 像 空间 映射 到 一 个 风格 空间 ， 然 后 测量 单 品 之 间 的 距 
Ee 离 来 预测 成 对 服装 的 兼容 性 四 。Mcauley 等 人 提出 使 用 Low- 
近年 来 ， 随 着 时 尚 行业 的 快速 发 展 ， 服 装 在 人 们 的 日 常 。 rank Mahalanobis Transformation 将 单 品 映射 到 样式 空间 来 计 
生活 中 扮演 者 越 来 越 重要 的 角色 ， 一 套 得 体 的 服装 可 以 提升 ” 算 服 装 之 间 的 相似 性 名 。 之 后 ，Han 等 人 将 一 套套 装 表示 为 
一 个 人 的 魅力 并 充分 展示 个 性 。 据 统计 , 在 2021 年 的 双 十 一 一 组 具有 特定 顺序 的 序列 ， 并 利用 双向 LSTMs 来 预测 给 定 
购物 节 , 阿 里 巴巴 的 电子 商务 网 站 天 猫 总 交易 额 高 达 5403 亿 ”一 组 服装 的 下 一 件 单 品 服装 , 以 及 组 合 套装 的 兼容 性 得 分 四。 
元 , 相 比 去 年 的 4982 亿 元 增加 了 421 亿 元 。 也 就 是 说 , 这 个 ” 这 些 方法 主要 采用 了 两 种 服装 表示 方法 : 成 对 表示 和 序列 表 
潜在 的 市 场 有 望 创造 巨大 的 财富 并 且 服 装 的 研究 也 因为 这 个 ” 示 。 其 中 成 对 表示 并 不 能 反映 多 个 服装 之 间 的 复杂 关系 ， 而 
巨大 的 市 场 而 受到 越 来 越 多 的 关注 。 与 此 同时 ， 服 装 相 关 的 ” ”对 于 序列 表示 来 说 ， 服 装 中 并 不 存在 固定 的 顺序 。 更 重要 的 
研究 也 随 之 兴起 , 例如 个 性 化 时 尚 设计 由, 服装 组 合 外 , 单 品 是， 套装 中 物品 之 间 的 关系 并 不 是 有 序 的 ， 因 为 每 件 
E 荐 BDI 和 时 尚 趋势 预测 欠 等 , 尤其 是 服装 搭配 564 方面 的 研究 。 ”仅仅 与 序列 中 的 前 一 件 或 者 后 一 件 物品 有 关系 。 而 不 管 是 
然而 ,服装 搭配 是 一 项 复杂 的 任务 , 它 不 仅 取决 于 时 尚 风格 、 于 成 对 表示 还 是 序列 表示 的 模型 ， 它 们 考虑 的 都 是 成 对 服装 
文化 背景 和 潮流 趋势 等 多 个 主观 因素 ， 所 有 的 这 些 因素 都 可 之 间 的 兼容 性 ， 这 使 得 套装 搭配 兼容 性 最 终 的 预测 只 依赖 
能 因 人 而 异 ， 甚 至 随 着 时 间 的 推移 而 变化 ， 所 以 并 不 是 每 个 ”成 对 单 品 之 间 的 比较 。 然 而 ， 套 装 的 兼容 性 不 仅 取 决 


= 


人 都 能 够 搭配 出 合适 得 体 的 服装 。 因 此 如 何 对 海量 的 服装 进 ” 服装 之 间 的 特性 ， 还 受 同 一 套装 中 其 他 服装 特征 的 影响 。 
行 分 析 ， 建 立 一 种 合适 的 服装 搭配 方法 具有 十 分 重要 的 社会 忆 此 ， 解 决 服装 搭配 兼容 性 问题 的 关键 在 于 如 何 恰当 地 
意义 和 经 济 意 义 。 表示 多 件 时 尚 单 品 之 间 的 关系 ， 而 不 是 仅仅 关注 于 成 对 的 单 


事实 上 ， 目 前 已 经 有 很 多 工作 致力 于 解决 服装 搭配 的 间 ” 品 。 近 年 来 ， 一些 研 究 方案 通过 图 神经 网 络 0" 咏 解决 服装 搭 
。 比 如 ，Viet 等 人 使 用 SiameseNet 将 套装 中 的 单 品 服装 从 ” 配 中 的 复杂 关系 问题 。 例 如 Cui 等 人 利用 类 别 信息 将 套装 表 
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等 : 基于 超 图 表示 的 服装 兼容 性 预测 模型 


示 为 一 个 图 ， 其 中 每 个 节点 表示 一 个 类 别 ， 每 条 边 表示 不 同 
物品 之 间 的 不 同 关 系 ， 然 后 通过 引入 注意 力 机 制 输出 套装 兼 
容 性 得 分 [1。 之 后 Cucurull 等 人 提出 利用 图 自动 编码 器 将 服 


品 的 视觉 特征 。 每 件 单 品 服装 的 视觉 特征 维度 


第 39 卷 第 8 期 


是 2048 维 


b) 文本 特征 提取 


装 兼 容 性 问题 看 成 是 边 预测 问题 ， 并 且 通 过 融合 上 下 文 信息 
提高 服装 搭配 兼容 性 预测 性 能 59。 尽管 使 用 图 的 各 种 模型 


Ey 


自身 的 标题 ， 标 题 中 大 多 数 文本 均 为 单词 或 者 
天 


法 已 经 在 文本 特征 提取 0 中 被 证 明 是 有 效 的 。 


~ 
上 


服装 搭配 问题 上 取得 了 成 功 的 结果 ， 但 由 于 传统 图 的 边 是 


i 
卫 


集中 不 同时 尚 单 品 标题 的 单词 构建 一 个 词汇 表 


两 个 节点 相连 而 成 ， 因 此 这 种 方法 建立 的 也 是 成 对 节点 之 间 
的 关系 ， 并 没有 从 本 质 上 解决 预测 套装 整体 兼容 性 的 问题 。 

为 了 解决 上 述 的 问题 ， 本 文 提 出 通过 超 图 来 反映 套装 中 
多 件 单 品 之 间 的 复杂 关系 和 高 层次 关系 。 超 图 是 一 个 可 以 表 
达 复 杂 网 络 的 广义 概念 。 在 传统 的 图 中 ， 边 连接 的 节点 数 被 
严格 定义 为 2; 而 在 超 图 中 ， 每 条 边 都 可 以 连接 两 个 以 上 的 
节点 ， 这 就 使 得 每 条 边 都 可 以 表示 一 套 完 整 的 服装 。 为 了 更 
好 预测 套装 搭配 的 兼容 性 , 本 文 提出 了 一 个 新 的 模型 OCPCE 


有 统一 的 标准 规范 ， 因 此 其 中 会 出 现 很 多 没有 
比如 ‘a’ 、‘an”、‘de” 等 ， 因 此 需要 过 滤 掉 少 
单词 以 保证 词汇 的 有 效 性 。 
2757 个 单词 的 词汇 表 , 因此 每 件 单 品 服装 的 文 
2757 维 。 


多 =022) 模拟 套装 和 单 品 之 间 的 复杂 关系 。 其 


去 模拟 套装 和 时 尚 单 品 之 间 的 交互 关系 。 模 型 的 框架 被 展示 


在 图 1 中 , 该 模型 首先 基于 数据 集 构 建 了 一 个 服装 超 图 ( 即 医 
1 中 最 左边 ), 其 中 超 图 中 的 每 个 超 节点 代表 不 同 的 单 品 服装 ， 
每 条 超 边 代表 多 件 单 品 组 成 的 套装 (样式 相同 的 边 为 超 边 ); 
然后 随机 选取 其 中 的 一 条 超 边 进行 兼容 性 预测 。 为 了 更 好 地 
表示 超 边 和 节点 之 间 的 复杂 关系 ， 模 型 将 超 边 中 的 节点 两 两 
互相 连接 形成 一 个 简单 图 ， 使 得 节点 之 间 的 交互 可 以 更 好 的 
传播 ， 之 后 在 简单 图 上 通过 图 卷 积 神经 网 络 的 消息 传播 机 制 
聚合 节点 的 邻居 信息 来 迭代 更 新 节点 的 状态 信息 表示 ; 最 后 ， 
在 计算 服装 兼容 性 时 ， 与 现 有 工作 认为 所 有 单 品 对 服装 兼容 
性 产生 相同 的 影响 不 同 ， 该 模型 引入 注意 力 机 制 模拟 不 同 单 
品 对 服装 兼容 性 的 影响 ， 以 更 好 地 增强 模型 的 预测 能 


村 衣 


He 


项 链 
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图 1 基于 超 图 表示 的 服装 兼容 性 预测 模型 框架 图 


Fig.1 Framework of outfit compatibility prediction model based on 


hypergraph representation 
1 ”基于 超 图 表示 的 服装 兼容 性 预 模型 


1.1 问题 定义 
服装 搭配 是 否 兼容 需要 考虑 的 是 套装 中 所 
合 在 一 起 之 后 的 相 容 性 ,而 不 仅仅 是 成 对 单 品 之 间 的 相 容 性 。 
本 文 的 研究 目的 是 通过 对 套装 和 时 尚 单 品 之 间 的 关系 进行 兼 
容 性 建 模 ， 从 而 预测 服装 整体 的 兼容 性 性 。 假 设 存 在 一 个 套 
装 集合 O={o,o，……ov} ， 万 中 COi 表示 第 i 套套 装 ， 随机 从 集合 
中 选择 一 套 由 多 件 单 品 搭配 而 成 的 套装 ， 通 过 建 模 套装 和 时 
尚 单 品 之 间 的 关系 ， 计 算 套 装 整体 的 兼容 性 得 分 并 根据 得 分 
预测 套装 是 否 兼容 。 
1.2 ”特征 提取 和 超 图 构建 


时 尚 单 品 的 文本 信息 主要 来 源 于 其 


c) 超 图 构建 ”本 文 基于 现 有 数据 集中 时 尚 单 品 的 类 别 
言 县 和 时 尚 单 品 之 间 的 搭配 关系 构建 了 一 个 时 尚 超 图 


每 个 节点 表示 不 同时 尚 单 品 所 属 的 类 别 , 每 条 超 边 ( 即 样式 相 


较 短 的 短语 。 


此 本 文通 过 词 袋 模型 09 来 提取 时 尚 单 品 的 文本 特征 ， 该 方 


首先 基于 数据 
。 由 于 标题 没 
意义 的 单词 ， 
于 三 个 字符 的 


通过 相关 统计 后 得 到 一 个 包含 


本 特征 维度 是 


中 ， 超 图 上 的 


司 的 边 ) 表 示 多 个 类 别 之 间 的 搭配 关系 。 但 是 
都 可 以 构成 超 边 。 只 有 数据 集中 出 现 的 套装 中 


鞋子 、 包 以 及 配饰 等 类 别 的 节点 可 以 构成 超 边 
单 品 服装 输入 到 超 图 中 对 应 的 节点 ， 超 图 中 每 
示 为 一 套 完整 的 套装 。 
1.3 ”模型 设计 

本 节 首 先 介 绍 一 些 将 在 本 节 中 使 用 到 的 符 


不 是 任意 节点 
所 包含 的 时 尚 


单 品类 别 所 属 的 节点 才 可 以 构成 超 边 ,比如 表示 上 衣 、 下 衣 、 


。 通 过 将 每 件 
条 超 边 对 应 表 


号 。 对 于 每 件 


时 尚 单 品 6@, 它 对 应 的 视觉 特征 是 s;， 文本 特征 是 i。 每 件 单 
品 “所 对 应 的 种 类 是 ， 对 应 在 超 图 中 的 超 节 点 是 ws2， 而 


超 节 点 在 模型 中 的 状态 表示 是 f。 


a) 节点 初始 化 ”本文 所 提 模 型 的 输入 是 每 件 时尚 单 品 


的 视觉 特征 s, 和 文本 特征 +， 它们 被 用 来 初始 化 其 相应 节点 


的 特征 表示 。 对 于 每 件 单 品 ， 首 先 将 它 的 视觉 
征 映射 到 一 个 大 小 为 4 的 空间 。 由 于 每 件 单 品 
是 不 同 的 ， 因 此 在 映射 到 样式 空间 的 时 候 ， 每 
要 设置 一 个 不 同 的 线性 映射 和 矩阵。 然后 拼接 样 


寺 征 和 文本 特 
所 属 的 种 类 都 
一 个 种 类 都 需 
式 空 间 中 的 视 


觉 特征 和 文本 特征 作为 每 件 单 品 的 特征 表示 。 
该 特征 表示 作为 每 件 时 尚 单 品 在 超 图 中 对 应 超 
征 表 示 ， 如 下 所 示 。 


f° = tanh(Ws; || Wit;) 


b) 超 边 转换 为 图 


最 后 ， 初 始 化 
节点 的 初始 特 


(1) 


在 本 文 所 提 模 型 OCPCE 中 ， 超 图 中 


的 每 条 超 边 表示 一 套 完整 的 套装 。 为 了 更 好 模 
服装 之 间 的 复杂 和 高 阶 关 系 ， 该 模型 将 将 每 条 


拟 套 装 和 单 品 
超 边 转换 为 传 


统 图 。 目 前 将 超 边 转 为 图 的 方式 有 两 种 ， 一 种 
展 ， 即 将 超 边 中 所 有 顶点 都 连接 在 一 起 ， 比 如 
超 边 ,拓展 成 普通 图 时 


相连 就 会 构成 有 三 条 边 的 简单 图 ; 


是 连通 分 量 拓 
有 三 个 顶点 


法 


男 一 种 是 星 拓展 ， 就 是 在 每 条 超 边 中 都 增加 一 


个 新 的 节点 ， 


然后 将 超 边 中 的 所 有 节点 与 该 节点 相连 接 。 第 
方式 在 原来 的 超 节点 上 增加 了 新 的 节点 ， 这 种 
现 无 效 的 信息 ， 造 成 信息 的 错误 传播 。 因 此 ， 
分 量 拓展 将 超 边 转换 为 简单 医 


二 种 超 边 拓 
方式 可 能 会 
本 文通 过 连 i 


型 


上 上 


型 


nD 


c) 建 模 节 点 交互 ” 超 边 转换 为 传统 图 以 后 ， 


GGNN08 的 方法 ， 本 文 利用 图 神经 网 络 建 模 传 


址 ll 


统 图 上 的 


交互 。 图 上 的 节点 交互 指 的 是 每 个 节点 聚合 周 


a) 视觉 特征 提取 时 尚 单 品 的 图 片 中 包含 了 大 量 的 信 


信息 和 自身 的 状态 信息 来 更 新 自身 节点 的 状态 


息 ， 比 如 颜色 、 图 案 和 条 纹 等 等 ， 对 预测 服装 搭配 兼容 性 有 
极 大 的 帮助 。 本 文 利 用 卷 积 神经 网 络 来 提取 时 尚 单 品 图 像 的 
视觉 信息 , 相 比 于 传统 的 特征 提取 方法 如 SIFT、SURF 和 PCA 
等 ， 卷 积 神经 网 络 已 经 被 证 明 是 图 像 特征 提取 中 较 先 进 的 模 
型 。 本 文选 择 由 Google 团队 提供 的 经 过 预 训练 的 Inception- 
V305 深 度 神 经 网 络 进行 视觉 特征 的 提取 。 将 时 尚 单 品 的 图 像 
输入 到 InceptionV3 网 络 中 ， 并 将 其 线性 层 的 输出 作为 该 单 


点 交互 之 后 ， 节 点 的 状态 信息 就 更 新 为 如 下 所 
Hi = 2 Alyv, IWh® +b) 
Ve 


其 中 ，f* 表示 的 是 节点 在 第 人 tl 次 节点 交 


图 节点 的 状 


2 千 Y 
言 息 。 每 次 


ea 
赴 鹿 汕 


示 。 
GO) 
互 后 的 状态 表 


示 。W 和 wb 是 可 训练 的 权 值 矩阵 ， 用 来 提取 


用 的 信息 进行 


传播 。4 是 表示 节点 之 间 连 通关 系 的 邻接 矩 阵 ， 如 果 节 点 


和 节点 六 相互 连接 ， 则 4=1， 和 否则 4=0 。 
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在 汇总 邻居 的 状态 信息 后 ， 每 个 节点 通过 Gated ”所 有 实验 均 是 在 一 台 装 有 Quadro M4000 图 形 处 理 器 的 服务 


Recurrent Units(GRU) 来 更 新 其 最 终 表 示 ， 总 体 可 以 表示 为 器 上 进行 的 。 实 现 训练 过 程 在 目标 函数 收敛 或 到 达 最 大 的 循 
ht =GRU(h®, AD) (3) 环 次 数 时 停止 。 
其 中 ， Ne 为 节点 在 人 tl 次 传播 之 后 的 最 终 表示 。 2.3 ”对 比方 法 
d) 计算 兼容 性 得 分 ”为 了 评估 多 件 衣服 是 否 能 构成 一 Random: 一 个 基于 随机 猜测 的 模型 。 
套 匹 配 度 高 的 套装 ， 模 型 OCPCE 通过 每 条 超 边 中 所 包含 节 SiameseNet[I] : SiameseNet 送 一 对 时 尚 单 品 进入 到 
点 的 最 终 状态 表示 来 计算 超 边 所 对 应 套装 的 兼容 性 得 分 。 与” Siamese 网 络 中 ， 将 它们 映射 到 样式 空间 并 比较 它们 之 间 的 


现 有 工作 中 简单 地 将 成 对 服装 的 兼容 
的 兼容 性 得 分 不 同 ， 本 文 认为 不 同 的 8 


生 聚 合 在 一 起 作为 套装 。 ”距离 。 通 过 平均 成 对 单 品 的 兼容 性 得 分 来 计算 整个 套装 的 兼 
才 尚 单 品 对 套装 整体 的 ” 容 性 得 分 。 


要 性 各 不 相同 。 因 此 ， 本 文 提出 通过 一 种 注意 力 机 制 来 区 Bi-LSTMI9: Bi-LSTM 采用 双向 LSTM 挖掘 一 套 服装 中 
套装 中 各 件 服装 的 重要 性 。 注 意 力 机 制 的 计算 公式 如 下 : 时 尚 单 品 之 间 的 序列 关系 来 对 它们 之 间 的 兼容 性 进行 建 模 ， 
,=oWh®) (4) ”并 计算 它们 之 间 的 兼容 性 得 分 。 
=6(Wah®) (5) VCPI4: VCP 方法 引入 了 图 自动 编码 器 ， 根据 两 个 时 尚 单 
其 中 ，W 和 W, 是 两 个 可 训练 的 权重 和 矩阵，o(*) 和 5(0) 分 别 是 品 的 视觉 特征 以 及 它们 的 上 下 文 来 计算 它们 之 间 的 兼容 性 得 分 。 
LeakyReLU09 和 Sigmoid 激活 函数 。 表示 不 同 单 品 对 服装 GGNNUS], GGNN 利用 图 神经 网 络 对 套装 和 单 品 服装 之 
兼容 性 影响 的 重要 性 ， 针 表示 套装 中 不 同 单 品 的 兼容 性 得 分 。 间 的 关系 进行 建 模 ， 并 计算 它们 之 间 的 兼容 性 得 分 。 
对 此 套装 o 的 兼容 性 得 分 表示 为 2.4 服装 填空 任务 
= i 服装 填空 任务 (Fl In The Blank，FITB) 是 一 项 广泛 开展 
a 的 时 尚 兼容 性 研究 的 标准 测试 。 给 定 一 组 搭配 好 的 套装 ， 将 


其 中 ，|m| 表 示 套 装 o 是 由 m 件 时 尚 单 品 组 成 的 。 其 中 一 件 单 品 随 机 用 空白 代替 ， 同 时 从 数据 集中 任意 选取 三 
1.4 目标 函数 件 单 品 作为 错误 选项 ， 与 被 蔡 代 的 单 品 一 起 组 成 候选 集 。 本 

为 了 更 好 的 预测 套装 搭配 的 兼容 性 ， 本 文采 用 Bayesian  ” 文 将 被 空白 代替 的 单 品 设置 为 正确 答案 ， 并 且 假 设 该 单 品 比 
Personalized Ranking(BPRJ)P9 算 法 来 解决 这 个 任务 。 在 该 算法 其 他 候选 项 与 原 套装 更 兼容 。 任 务 目 的 是 从 候选 集中 找到 正 


中 假设 正 样 本 套装 比 负 样 本 套装 有 更 高 的 兼容 性 得 分 。 具 体 确 选 项 来 填充 套装 中 的 空白 。 这 项 任务 的 性 能 通过 从 四 个 候 
的 目标 函数 表示 如 下 : 选项 中 选择 正确 答案 的 准确 率 来 评估 。 
Ar= 3 -innGs, -8,)+AloP (7) 本 文 提出 的 模型 与 其 他 可 替代 模型 在 FITB 任务 中 的 比 


人 较 结 果 如 表 1 所 示 。 从 该 表 中 ， 可 以 得 出 以 下 结论 : 1) 与 其 
其 中 ， ={(0,0-)} 是 兼容 性 建 模 的 数据 集 ， 每 对 (oo-) 代表 的 “他 方法 相 比 , Random 的 性 能 较 差 , 表明 仅仅 通过 随机 猜测 不 
是 数据 集中 存在 的 套装 。( 即 正 样本 ) 和 数据 集中 不 存在 的 套 足以 反映 套装 整体 的 兼容 性 ;2) Bi-LSTM 的 性 能 优 于 
装 o- ( 即 随机 生成 的 负 样本 )。7() 是 Sigmoid 函数 ，@ 表示 所 有 ”Random。 原 因 可 能 是 引入 Bi-LSTM 可 以 更 好 的 学 习 有 关 兼 
的 训练 模型 参数 ， 4? 表示 对 其 进行 5 归 一 化 以 避免 过 度 拟 合 。 容 性 的 潜在 知识 。 与 随机 猜测 兼容 性 的 模型 相 比 ，Bi-LSTM 
2 ”实验 分 析 将 整个 套装 表示 为 一 个 序列 ， 并 在 比较 成 对 单 品 之 外 学 习 高 
> 阶 关 系 ，3) 同 样 通过 平均 成 对 单 品 兼容 性 来 计算 套装 兼容 性 

2.1 数据 集 的 VCP， 人 性 能 却 优 于 Bi-LSTM。 人 性 能 的 提升 要 归功 于 VCP 
现 有 的 Polyvore 数据 集 来 自 于 流行 的 时 尚 网 站 Poly- ”中 引入 了 上 下 文 信 息 来 更 好 的 反映 单 品 之 间 的 关系 ， 这 也 证 
vore.com, 它 允 许 他 们 的 成 员 利用 不 同 的 服装 创建 时 尚 套装 ， 明了 上 下 文 信息 在 服装 兼容 性 任务 中 的 有 效 性 ; 4) 与 其 他 方 
或 者 喜欢 并 且 保 存 其 他 人 创建 的 套装 。 该 数据 集中 包含 法 相 比 , 基于 图 的 方法 GGNN 取得 了 更 好 的 性 能 , 表明 图 结 
164379 件 单 品 ， 形 成 21899 套 不 同 的 服装 。 图 分 割 技术 被 用 构 可 以 进一步 有 效 地 推断 兼容 性 信息 。 与 Bi-LSTM 和 VCP 
来 将 数据 集 划 分 为 训练 集 ， 测 试 集 和 验证 集 ， 其 中 17316 套 。。“ 相 比 ， 这 种 性 能 的 提升 验证 了 图 表示 比 序列 表示 和 成 对 表示 
服装 用 于 训练 ，1497 套用 于 验证 ，3076 套用 于 测试 , 并 且 划 可 以 更 好 的 对 时 尚 单 品 之 间 的 交互 进行 建 模 。5) 本 文 提 出 的 
分 出 的 数据 集 保证 两 两 之 间 没 有 重合 ， 也 就 是 测试 集中 出 现 ”模型 实现 了 最 好 的 性 能 ， 这 得 益 于 超 图 表示 可 以 很 好 的 模拟 
的 单 品 不 会 在 训练 集中 出 现 。 同 时 数据 集中 每 个 单 品 都 包含 。” 套装 和 时 尚 单 品 之 间 的 复杂 关系 和 高 阶 关系 。 此 外 ， 该 模型 
着 丰富 的 信息 ， 比 如 图 像 信息 ， 文 本 描述 和 类 型 (如 牛仔 裤 、 ”还 引入 自 注意 力 机 制 来 估计 服装 的 兼容 性 ， 这 可 以 更 好 的 捕 
裙子 、 鞋 子 等 等 )。 捉 潜在 的 兼容 性 知识 ， 进 一 步 提 高 模型 性 能 。 如 图 2 所 示 ， 
如 果 原 始 数 据 集中 套装 的 单 品 数 超 过 了 8 件 ， 表 示 该 套 ”本 文 随机 选择 几 套 示例 服装 可 视 化 提出 的 模型 在 服装 填空 任 


习 


tT 


装 中 包含 重复 出 现 的 单 品 ， 而 如 果 套 装 的 单 品 数 不 足 3 件 ， 务 上 的 性 能 。 

表示 该 套装 并 不 是 完整 的 套装 。 因 此 本 文通 过 移 除 原 始 数据 表 1 服装 填空 任务 中 不 同 模型 的 实验 结果 

站 中 超过 8 件 单 品 和 不 足 3 件 单 品 的 套装 生成 新 的 数据 集 Tab.1 Experiment results of different models in 

Polyvore-N 来 保持 套装 的 不 重复 性 和 完整 性 。 outfit fill-in-the-blank task 

2.2 ”实验 设置 模型 Accuracy (FITB) 模型 Accuracy (FITB) 

本 文 所 有 的 实验 都 通过 验证 集 对 超 参 数 进行 选择 ， 且 所 Random 24.92% GGNN 74.19% 

有 的 实验 性 能 对 比 均 在 测试 集 上 完成 。 为 了 优化 目标 函数 ， Bi-LSTM 46.24% OCPCE 77.29% 

本 文采 用 了 随机 梯度 下 降 法 ， 该 方法 已 被 证 明 在 优化 神经 网 VCP 58.28% 

络 模型 的 过 程 中 是 有 效 的 PU。 此 外 ， 本 文采 用 网 格 搜索 策略 为 了 更 加 直观 地 分 析 所 提 模 型 OCPCE 与 对 比 模型 

调整 模型 的 超 参数 。 在 {8,12,16,20,24} 范 围 中 搜索 批量 的 最 佳 NGNN 以 及 Bi-LSTM 在 服装 填空 任务 中 的 性 能 ， 本 节 从 数 

大 小 ， 在 {102,103,10“,1035} 范 围 内 微调 正则 率 和 学 习 率 ， 据 集中 随机 可 视 化 了 几 个 具体 的 样本 案例 ， 并 对 其 进行 详 名 
在 {0,1,2,3} 中 搜索 传播 层 数 K 来 使 模型 达到 最 优 效果 。 同 说明。 可 视 化 结果 如 图 3 所 示 ， 其 中 方 框 表示 模型 选择 正确 

时 采用 Adam 优化 器 去 优化 整个 预测 模型 和 更 新 模型 参数 。 的 答案 ， 而 无 方 框 表 示 模 型 选择 错误 的 答案 。 在 示例 1 中 ， 
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所 有 的 模型 都 推断 出 示例 套装 缺少 一 双 鞋 子 ， 并 选择 了 正确 


答案 。 在 示例 2 


H ,本文 所 提 模 型 OCPCE 和 对 比 模型 NGNN 


都 选择 了 正确 的 答案 ， 而 Bi-LSTM 模型 却 选择 了 错误 的 答 


案 。 这 是 因为 Bi-LSTM 模型 是 基于 序列 的 方法 , 而 上 衣 的 位 


置 与 空白 处 相 邻 ， 会 对 空白 处 服装 的 选择 产生 极 大 的 影响 ， 
最 终 导致 Bi-LSTM 选择 了 裤子 作为 答案 。 


来 


AU 


务 


判断 套装 是 否 兼 容 。 这 项 任务 的 性 能 通过 采 | 
ROC(Receiver Operating Characteristic) 曲线 下 的 度量 标准 
C(Area Under Curve) 来 进行 评估 。 
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广泛 使 用 的 


六 


本 文 提出 的 模型 与 其 他 可 
上 的 实验 结果 如 表 2 所 示 。 


蔡 代 模型 在 服装 兼容 性 预测 任 
和 FITB 任务 相似 ， 本 文 提出 


在 示例 3 中 , 只 有 


本 文 所 提 模 型 OCPCE 选择 了 正确 的 时 尚 单 品 。 虽 然 NGNN 


同样 推断 
案 并 不 是 与 示例 套装 最 兼容 性 的 单 品 。 
基于 序列 表示 的 原因 选择 了 外 套 4 
型 OCPCE 在 三 个 示例 套装 中 均 选 择 了 正确 答案 


上 了 示例 套装 中 所 他 


超 图 表示 的 方法 


少 的 单 品 类 别 ， 但 
而 Bi-LSTM 同样 因为 


FE 为 错误 答案 。 


其 选择 的 答 


本 章 所 提 模 


效 地 模拟 了 套装 和 时 尚 单 品 之 间 的 交互 关 


系 。 上 述 示例 验证 了 所 提 模 型 在 服装 填空 任务 上 的 优越 性 。 


顶 测 概率 O10 0.18 000 072 


图 


2 ”模型 在 服装 填空 任务 中 的 可 视 化 示例 


Fig.2 Visual example of model in the fill-in-the-blank task 


"及 儿 全 重 


A 多 , 及 肝 D. 下 | 
,.“ 鸳 " 坝 
OCPCE:C NGNNC | [BiLSIMC 


:i 多 
Da 


NONN:A 


“站 呈 内 
yy "外 


Bi-LSTM:D 


Bi-LSTM:B 


OCPCE:B NGNN:A 


图 3 不 同 模型 在 服装 填空 任务 中 的 示例 比较 


Fig.3 Example comparision of different model in 


fill-in-the-blank task 


2.5 服装 兼容 性 预测 任务 
服装 搭配 兼容 性 预测 (Outfit Compatibility Prediction, CP) 


任务 的 


标 是 对 给 定 的 


示 服 装 整体 的 兼容 性 程度 。 分 数 越 接近 1 表示 
越 接近 0 表示 套装 越 不 兼容 。 这 是 现实 生活 中 常见 的 问题 ， 


例如 用 户 想 要 搭配 一 套 适合 自己 


品 之 间 是 否 兼 容 。 为 了 记 
建 兼 容 服 装 集 ， 即 数据 外 
从 兼容 服装 集 


量 的 不 旭 


A 


FP 随机 选择 时 尚 项 


的 衣服 ， 并 希望 确定 时 尚 单 
FE 估 该 模型 ， 本 文 首先 根据 数据 集 构 
中 的 所 有 服装 均 为 兼容 
， 生 成 与 兼容 


套 服装 生成 兼容 性 得 分 ， 该 分 数 表 


装 越 兼 容 ， 


服装 。 然 后 
服装 相同 数 


容 服装 集 。 通 过 对 兼容 服装 集 和 不 兼容 服装 集 评 分 ， 


的 
尚 
表 
仍 


VCP 方法 性 


模型 实现 了 最 好 的 性 能 ， 表 
单 品 之 间 的 高 层次 关系 ， 增 
示 的 GGNN 
然 可 以 很 好 的 结果 服装 兼容 


明 超 图 的 引入 很 好 地 揭示 了 时 
强 了 模型 的 预测 性 能 。 基 于 图 


乃 然 也 展现 出 了 很 好 的 性 能 , 也 反映 出 图 结构 
性 任务 。 而 引入 上 下 文 信息 的 
能 虽然 优 于 序列 表示 Bi-LSTM 和 随机 猜测 


Random， 但 是 他 们 在 该 任务 中 都 没有 展现 出 很 好 的 竞争 力 ， 


说 
很 


持 


明 只 对 成 对 单 品 的 兼容 建 模 或 者 将 套装 表示 为 序列 


不 能 


好 的 预测 服装 兼容 性 。 从 表 
了 FITB 任务 中 的 分 析 。 


中 观察 到 的 这 些 结果 ， 同 样 文 


表 2 服装 兼容 性 预测 任务 中 不 同 模型 的 实验 结果 


Tab. 2 Experiment results of different models in 


outfit compatibility prediction task 


模型 AUC(CP) 


模型 AUC(CP) 


50.12% 
77.11% 
90.13% 


Random 
Bi-LSTM 
VCP 


GGNN 
OCPCE 


94.77% 
96.23% 


2.6 不 同 组 成 模块 对 模型 性 能 的 影响 
为 了 清晰 地 说 明 本 文 所 提 模 型 OCPCE 在 服装 兼容 性 任 


务 


都 
接 
时 
很 
的 


过 


次 嵌 要 疏 池 池 当 


中 的 性 能 ， 本 节 从 测试 集中 


随机 可 视 化 了 几 套 服装 ， 并 对 


评分 结果 进行 分 析 。 如 图 4 所 示 , OCPCE 模型 为 每 套 服装 


进行 了 评分 ， 其 中 得 分 越 接近 1 说 明 套 装 兼容 性 越 高 ， 越 


近 于 0 说 明 套 装 兼 容 性 越 低 。 


尚 单 品 之 间 种 类 互补 并 且 颜 


列 如 ， 第 1 套 示例 服装 中 各 
色色 调 相 近 ， 因 此 它们 获得 J 


而 偏 低 ， 第 3 套 示例 服装 中 


高 的 兼容 性 得 分 ， 第 2 套 服装 中 同时 出 现 了 两 种 不 同样 式 
鞋子 ， 这 导致 服装 整体 的 兼容 性 得 分 由 于 单 品种 类 重复 出 


， 虽 然 并 没有 重复 出 现 相 同类 


因此 也 获得 了 较 低 的 兼容 
出 与 常理 相符 的 结论 ， 套 装 
时 尚 单 品 


会 使 得 服装 的 兼容 性 


的 单 品 ， 但 是 可 以 很 明显 的 发 现 套装 中 缺少 了 鞋子 这 一 类 
性 分 数 。 综 上 ， 从 示例 中 可 总 


中 缺少 或 者 重复 出 现 茶 一 类 别 
降低 。 同 时 ， 本 文 所 提 模 


对 这 些 案例 的 兼容 性 评分 也 验证 


了 其 在 服装 兼容 性 预测 任 


中 的 有 效 性 。 
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图 4 模型 在 服装 兼容 


生 预 测 任务 中 的 可 视 化 示例 


Fig.4 Visual example of model in outfit 


compatibility prediction task 


2.7 不 同 组 成 模块 对 模型 性 能 的 影响 


为 了 验证 每 个 组 成 模块 对 提出 模型 性 能 的 影响 ， 本 文通 
比较 它们 的 性 能 来 进行 消融 研究 。 


本 森 


禁用 每 个 组 成 模块 
实验 结果 如 表 3 所 示 ， 其 


中 OCPCE(-h) 表 示 该 模型 禁用 


超 图 模块 后 的 变 体 ，OCPCE(-w) 表 示 禁 用 注意 力 机 制 模块 后 


模 
型 


的 变 体 ，OCPCE(-h-w) 表 示 同 时 禁用 超 图 模块 和 注意 力 机 制 


块 后 的 变 体 。 从 实验 结果 中 
的 性 能 优 于 所 有 的 消融 模型 


加 
比 
尚 


模块 和 注意 力 机 制 模块 的 重 


可 观察 到 以 下 结果 : 1) 完 整 模 
， 证 明了 本 文 提出 的 模型 中 超 
要 性 ，2) 禁 用 超 图 模块 的 性 能 


完整 模型 性 能 差 ， 说 明 超 图 
单 品 之 间 的 高 阶 关系 ; 3) 禁 


机 秆 


可 以 很 好 的 模拟 套装 和 时 
注意 力 机 制 的 模型 性 能 仅 次 


录用 定稿 李 健 ， 等 : 基于 超 图 表示 的 服装 兼容 性 预测 模型 


于 优 于 完整 模型 的 性 能 ,这 证 明了 注意 力 机 制 引 入 的 必要 性 
表 3 不 同 组 成 模块 对 模型 性 能 的 影响 


Tab.3 The effect of different components on model performance 


[a 


o 


模型 Accuracy (FITB) AUC(CP) 
OCPCE(-h-w) 75.28% 94.89% 
OCPCE(-h) 75.94% 95.63% 
OCPCE(-w) 76.07% 95.84% 
OCPCE 77.29% 96.23% 


2.8 不 同 模 态 对 模型 性 能 的 影响 
为 了 全 面 验证 本 文 所 提 模 型 的 有 效 性 ， 本 节 在 不 同 模 态 
组 合 情 况 下 对 模型 进行 烧 蚀 实验 。 其 中 OCPCE(VD 表 示 只 有 
视觉 模 态 、OCPCE(TE) 表 示 只 有 文本 模 态 与 OCPCE(VI+TE) 
表示 文本 模 态 与 视觉 模 态 相 结 合 。 
表 4 展示 了 本 文 所 提 模 型 OCPCE 在 不 同 模 态 下 的 性 能 
比较 。 从 表 中 可 以 看 出 : 1) 采 用 多 模 态 信息 的 模型 优 于 只 采 
用 单一 模 态 的 模型 ， 说 明文 本 模 态 和 视觉 模 态 都 有 助 于 提 
兼容 性 建 模 的 性 能 ;， 2) 只 采用 视觉 模 态 的 模型 优 于 只 采 / 
模 态 的 模型 ， 说 明 影响 时 尚 单 品 建 模 的 服装 因素 更 多 地 体现 在 
视觉 信息 (如 颜色 和 图 案 )， 而 不 是 文本 信息 (如 材质 和 类 别 )。 
表 4 不 同 模 态 对 模型 性 能 的 影响 


Tab.4 Effects of different modality on model performance 


模型 Accuracy (FITB) AUC(CP) 
OCPCE(TE) 75.78% 95.28% 
OCPCE (VD 76.34% 95.63% 
OCPCE (TE+V]) 77.29% 96.23% 
3 ”结束 语 
为 了 更 好 的 预测 服装 搭配 的 兼容 性 ， 本 文 提出 通过 超 


来 表示 套装 和 单 品 之 间 的 关系 ， 因 为 超 图 中 的 超 边 可 以 连接 
多 个 节点 表示 一 套 完整 的 套装 。 为 了 更 好 的 从 超 图 中 推断 套 
装 是 否 兼容 ， 本 文 将 超 边 转换 为 传统 图 使 得 可 以 更 好 的 捕捉 

HD 使 用 真实 数据 集 在 不 
同类 型 的 时 尚 搭配 任务 上 进行 实验 ， 结 果 表 明 ， 本 文 所 提 模 
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型 可 以 有 效 的 学 习 时 尚 服装 的 兼容 性 。 但 是 由 于 每 个 用 户 都 
有 独特 的 审美 和 穿 搭 风格 ， 因 此 在 之 后 的 研究 中 ， 可 以 将 用 
户 的 个 人 偏好 融合 到 服装 搭配 技术 中 ,通过 衡量 用 户 的 体型 、 
肤色 等 信息 ， 实 现 基于 用 户 的 个 性 化 搭配 。 

参考 文献 : 


[1] Kang W C, Fang C, Wang Z, et al. Visually-aware fashion 


recommendation and design with generative image models [C]/ Proc of 
IEEE International Conference on Data Mining. Piscataway, NJ: IEEE 
Press, 2017: 207-216. 

[2] Feng Z, Yu Z, Yang Y et al. Interpretable partitioned embedding for 
customized multi-item fashion outfit composition [Cl]// Proc of ACM on 
International Conference on Multimedia Retrieval. Piscataway, NJ: ACM 
Press, 2018: 143-151. 

[3] Shih Y S, Chang K Y, Lin H T, et al. Compatibility family learning for 
item recommendation and generation [C]/ Proc of the AAAT Conference 
on Artificial Intelligence. Piscataway, NJ: IEEE Press, 2018, 32 (1) . 

[4] Al-Halah Z, Stiefelhagen R, Grauman K. Fashion forward: Forecasting 
visual style in fashion [C1]// Proc of the IEEE international conference on 
computer vision. Piscataway, NJ: IEEE Press, 2017: 388-397. 

[5] 刘 锐 ,， 彭 敦 陆 . 一 种 服饰 风格 特征 指导 下 的 服装 搭配 学 习 模 型 
[OL]. 小 型 微型 计算 机 系统 : 1-6 [2021-12-23]. http://kns. cnki. 
net/kcmas/detail/21. 1106. TP. 20210622. 1546. 008. html. (Liu Rui, Peng 
Dunlu. A fashion compatibility learning model guided by clothing style 


第 39 卷 第 8 期 


features [J/OL]. Journal of Chinese Computer Systems: 1-6 [2021-12- 
23]. http://kns. cnki. net/kcms/detail/21. 1106. TP. 20210622. 1546. 008. 
html.) 

[6] 杨怡 然 ， 吴 巧 英 . 智能 化 服装 搭配 推荐 研究 进展 四 . 浙江 理工 大 学 学 报 : 
自然 科学 版 , 2021, 45 (01): 1-12. (Yang Yiran, Wu Qiaoying. Research 
progress of intelligent clothing matching recommendation [J]. Journal of 
Zhejiang Sci-Tech University: Natural Science, 2021, 45 (01): 1-12.) 

[7] Veit A, Kovacs B, Bell S$, et al. Learning visual clothing style with 
heterogeneous dyadic co-occurrences [Cl]// Proc of the IEEE 
International Conference on Computer Vision. Piscataway, NJ: IEEE 
Press, 2015: 4642-4650. 

[8] McAuley J, Targett C, Shi Q, et al. Image-based recommendations on 
styles and substitutes [C]// Proc of the 38th International ACM SIGIR 
Conference on Research and Development in Information Retrieval. 
Piscataway, NJ: ACM Press, 2015: 43-52. 

[9] Han X, Wu Z, Jiang Y G, et al. Learning fashion compatibility with 
bidirectional lstms [C]// Proc of the 25th ACM International Conference 
on Multimedia. Piscataway, NJ: ACM Press, 2017: 1078-1086. 

[10] Hong Richang, Li Lei, Cai Junjie, et al. Coherent semantic-visual 
indexing for large-scale image retrieval in the cloud [J]. IEEE Trans on 
Image Processing, 2017, 26 (9): 4128-4138. 

[11] Hong Richang, Yang Yang, Wang Meng, et al. Learning visual semantic 
relationships for efficient visual retrieval [J]. IEEE Trans on Big Data, 
2015, 1 (4): 152-161. 

[12] Chen Long, Zhang Hanwang, Xiao Jun, et al. Counterfactual critic multi- 
agent training for scene graph generation [C]/ Proc of IEEE International 
Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 
4613-4623. 

[13] Cui Zeyu, Li Zekun, Wu Shu, et al. Dressing as a whole: Outfit 
compatibility learning based on node-wise graph neural networks [C1]// 
Proc of World Wide Web Conference. San Francisco: ACM Press, 2019: 
307-317. 

[14] Cucurull G, Taslakian P, Vazquez D. Context-aware visual compatibility 
prediction [C]/ Proc of IEEE Conference on Computer Vision and 
Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 12617-12626. 

[15] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception 
architecture for computer vision [C]// Proc of IEEE Conference on 
Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 
2016: 2818-2826. 

[16] Ji Rongrong, Xie Xing, Yao Hongxun, et al. Mining city landmarks from 
blogs by graph modeling [Cl]// Proc of the 17th ACM International 
Conference on Multimedia. Piscataway, NJ: ACM Press, 2009: 105-114. 

[17] Gao Yue, Wang Meng, Zha Zhengjun, et al. Visual-textual joint relevance 
learning for tag-based social image search [J]. IEEE Trans on Image 
Processing, 2012, 22 (1): 363-376. 

[18] Li Y, Tarlow D, Brockschmidt M, et al. Gated graph sequence neural 
networks [J]. IEEE Trans on Signal Processing, 2020, 68 (1): 6303-6318. 

[19] Maas A L, Hannun A Y, Ng A Y. Rectifier nonlinearities improve neural 
network acoustic models [C1]// Proc of the 30th International Conference 
on Machine Learning. Piscataway, NJ: IEEE Press, 2013: 1-5. 

[20] Rendle S, Freudenthaler C, Gantner Z, et al. BPR: Bayesian personalized 
ranking from implicit feedback [C]// Proc of the 25th Conference on 
Uncertainty in Artificial Intelligence. Piscataway, NJ: ACM Press, 2013: 
452-461. 

[21] Zhang Tong. Solving large scale linear prediction problems using 
stochastic gradient descent algorithms [C]/ Proc of the 21st International 


Conference on Machine learning. Piscataway, NJ: IEEE Press, 2004: 116. 


